1 Exploratory analysis

1.1 Selection des questionnaires

Au tout début on a 870 lignes et 381 IDs.

Après avoir exclu 4 lignes à cause de missing ID, on descend à 866 questionnaires et 380 IDs (l’ID “valeur manquante” n’est plus comptabilisé, c’est pour ça qu’on “perd” un ID).

Sachant que 380x2=760on a 106 entrées de trop.
On retrouve 16 questionnaires completement vides, qu’on peut exclure ce qui nous donne 850 questionnaires et 379 IDs uniques.

On est tjrs très loin de notre objectif de environ 760 questionnaires (758 maintenant qu’on a 379 IDs).

Donc, on a forcement des IDs pour lesquels on a >2 entrées. Voyons de les mettre en evidence.

data %>% 
    group_by(id) %>% 
    summarise(n=n()) %>%
    arrange(desc(n)) %>%
    datatable(options = list(pageLength = 10,
                             #dom = 't',
                             scrollX = TRUE,
                             width = "auto",
                             scrollX = T
                             ))
problematic_IDs = data %>% group_by(id) %>% summarise(n=n()) %>% filter(n>2) %>% nrow


Comme tu peux le voir on semble avoir 48 IDs presents au moins 3 fois.
Creusons plus loin pour voir si on identifie un groupe d’IDs problematique. Théoriquement, si les gens avaient respecté les régles pour la création de l’identifiant anonyme, l’identifiant devrait suivre le pattern suivant: 1 chiffre - 2 lettres - 2 chiffres.

Voyons pour combien de lignes ce pattern est respecté:

str_detect(data$id, "[:digit:]{1}[:alpha:]{2}[:digit:]{2}") %>% 
    table %>%
    pander
FALSE TRUE
44 806

Cela nous dit que même si on regarde seulement les gens qui ont respecté la procedure pour la création des IDs, on à tjrs des lignes de trop. D’abord, regardons les entrés des gens qui ont tapé un ID au pif.

data %>% 
    filter(!str_detect(id, "[:digit:]{1}[:alpha:]{2}[:digit:]{2}")) %>%
    arrange(id) %>% 
    datatable(options = list(pageLength = 10,
                             #dom = 't',
                             scrollX = TRUE,
                             width = "auto",
                             scrollX = T
                             ))


Néanmoins, s’ils ont utilisé 2 fois le même identifiant aberrant on pourra quand même les apparier. Voyons donc les IDs qui apparaissent >2 fois. Les IDs aberrants qui apparaissent 2 fois on peut les utiliser, les IDs qui apparaissent qu’une seule fois, idem, on peut les garder pour la partie descriptive (carrement ils ne sera pas possible de les utiliser pour la comparaison avant-après).

data %>% 
    filter(!str_detect(id, "[:digit:]{1}[:alpha:]{2}[:digit:]{2}")) %>%
    group_by(id) %>%
    summarise(n=n()) %>% 
    arrange(desc(n)) %>%
    datatable(options = list(pageLength = 10,
                             #dom = 't',
                             scrollX = TRUE,
                             width = "auto",
                             scrollX = T
                             ))

On voit que le seul ID problematique parmi les aberrants est “12345”.
Est-ce que la filière pourrait nous aider? Voyons.

data %>% 
    filter(id=="12345") %>%
    datatable(options = list(pageLength = 10,
                             #dom = 't',
                             scrollX = TRUE,
                             width = "auto",
                             scrollX = T
                             ))

On semble avoir 1 IDE et 1 MG, qui ont un doublon de “2ème test”. Si on regarde avec attention la ligne 3 et 4 sont identiques, avec une “filière” différente.
Si la ligne 3 et 4 étaient par exemple “IDE” et la ligne 5 et 6 étaient “medecine generale” on aurait identifié des doublons –> problème résolu. Mais dans ce cas on a des doublons ET 2 personnes qui ont rentré 2 fois le “2ème test” en changeant aussi de filière. Ou Il est donc impossible de rattacher ces questionnaires à un “test 1”. Ce qui est très très bizarre, est que les lignes 3 et 5 sont IDENTIQUES aux lignes 4 et 6. Ce qu’on peut faire, est prendre la moyenne des lignes 3-5 et 4-6. Le même approche nous sera utile pour gérer les IDs non aberrants doublons qui sont les suivants:

data %>% 
    filter(str_detect(id, "[:digit:]{1}[:alpha:]{2}[:digit:]{2}")) %>%
    group_by(id) %>%
    mutate(n=n()) %>% 
   filter(n>2) %>%
    relocate(n, .after = id) %>% 
    arrange(desc(n)) %>% 
    datatable(options = list(pageLength = 10,
                             #dom = 't',
                             scrollX = TRUE,
                             width = "auto",
                             scrollX = T
                             ))
data = data%>%
     group_by(id, test, filiere) %>%
     summarise(across(s1q1:last_col(), ~mean(., na.rm = TRUE)), .groups = "drop")

Vu que “ID” ne suffit pour identifier uniquement les lignes, si on prend “ID” + “test” + “filiere” et on fait la moyenne des lignes ambigues on devrait s’en sortir pas mal. Cela nous laisse avec 776 questionnaires.
Bon, on sait dejà qu’on a des IDs qui apparaissent trop souvent mais si on prend ID-filiere, est-ce que maintenant on a max 2 lignes par couple ID-filiere?

data %>% 
    group_by(id,filiere) %>%
    summarise(n=n()) %>% 
    arrange(desc(n)) %>%
    datatable(options = list(pageLength = 10,
                             #dom = 't',
                             scrollX = TRUE,
                             width = "auto",
                             scrollX = T
                             ))
## `summarise()` has grouped output by 'id'. You can override using the `.groups`
## argument.


Oui! Nous avons maintenant 413 identité uniques données par ID+FILIERE. Vu qu’on a besoin de “filière” pour identifier les gens, on va esclure les lignes où “filière” n’est pas renseigné.

filiere_na = data %>% filter(is.na(filiere)) %>% nrow()

# REMOVING MISSING "filiere" rows
data = data %>% filter(!is.na(filiere))

# How many questionnaires left?
questionnaires = nrow(data)
# How many unique identifties?
ids = data %>% distinct(id,filiere) %>% nrow

On exclu donc 9 lignes car valeur manquante. On est maintenant à 767 questionnaires pour 413 identités. Voyons combien de gens on peut apparier.


data %>% 
    group_by(id,filiere) %>%
    summarise(n=n(), .groups="drop") %>% 
    arrange(desc(n)) %$%
    table(n) %>%
    pander(caption = "Nb questionnaires appariés et non")
Nb questionnaires appariés et non
1 2
59 354


Flowchart inclusion questionnaires

Figure 1.1: Flowchart inclusion questionnaires


#########

1.2 Nb et repartition sujets participants

data %>% distinct(id,filiere) %$% 
    table(filiere) %>% 
    as.data.frame() %>% 
    mutate("%" = round(Freq/sum(Freq)*100, 2)) %>% 
    adorn_totals() %>% 
    pander(caption = "**Repartition sujets par filière**")
Repartition sujets par filière
filiere Freq %
IDE 166 40.19
maieutique 25 6.05
medecine generale 97 23.49
MKE 48 11.62
orthophonie 28 6.78
pharmacie 49 11.86
Total 413 99.99

1.3 Missing values

Voyons sur tout l’ensemble de tests, combien de données manquantes on a. Ce sont des “vraies” données manquantes OU des “NSP” qui n’était pas pertinents pour la question et vraisemblablement pris pour des “Ne sait pas”.

table(data$na_counts) %>% 
    as.data.frame() %>% 
    mutate("%" = round(Freq/sum(Freq)*100, 2)) %>% 
    rename("Nb missing values" = Var1) %>% 
    pander(caption = "**Nb de valeurs manquantes par questionnaire**")
Nb de valeurs manquantes par questionnaire
Nb missing values Freq %
0 688 89.7
0.333333333333333 1 0.13
0.5 7 0.91
1 45 5.87
2 16 2.09
3 3 0.39
4 1 0.13
5 5 0.65
6 1 0.13

On voit que les tests sont bien complets globalement sauf 16 questionnaires qui sont complétement vides. Ils sont des doublons dus à des enregistrements vides.



1.3.1 Missing values par filière

On peut voir que la repartition des valeurs manquantes par filière est en ligne avec la repartition des sujets par filière. Donc il n’y a pas une filière qui a laissé le questionnaire “plus vide” que les autres.

data %>%
  group_by(filiere) %>%
  summarise(Freq = sum(na_counts)) %>%
  mutate("%" = round(Freq / sum(Freq) * 100, 2)) %>%
    adorn_totals() %>% 
  pander(caption = "**Valeurs manquantes par filière**", align = "center")
Valeurs manquantes par filière
filiere Freq %
IDE 59.83 47.93
maieutique 5 4.01
medecine generale 30 24.03
MKE 9 7.21
orthophonie 5 4.01
pharmacie 16 12.82
Total 124.8 100

!!!!!! Quelque chose ne va pas, on a 379 sujets et 800+ questionnaires (on devrait en avoir au max 379*2). Dans le tableau suivant on voit qu’on a 199 sujets avec au moins 3 entrées (et j’ai déjà exclu les 16 dont je parlais avant).

x <- data %>%
  group_by(id, filiere) %>%
  summarise(n = n()) %>%
  arrange(desc(n)) %>%
  filter(n > 2) %>%
  pull(id) 

data %>%
    filter(id %in% x) %>%
    arrange(id, filiere, test) %>%
    datatable(options = list(pageLength = 10,
                             #dom = 't',
                             scrollX = TRUE,
                             width = "auto",
                             scrollX = T
                             )
              ) 

Les entrées supplementaires ne sont pas des “doublons”, les valeurs ne sont pas les mêmes. Je vais donc prendre la moyenne de ces valeurs. Ci dessous le résultat, on est à 766 lignes alor que notre max theorique est 758. Il y a forcement des gens qui se sont enregistrés avec plus qu’un ID (j’ai renommé la variable “A1”).
Ca ne m’inquiète pas pour les tests appariés, je ne pense pas que des gens ont 2*2 tests appariés mais je controllerai.

data %>% 
    group_by(id,test,filiere) %>% 
    summarise(across(s1q1:s7q2,mean,na.rm=T)) %>% 
    mutate(na_counts = rowSums(across(s1q1:s7q2, is.na))) %>% 
    datatable(options = list(pageLength = 10,
                             #dom = 't',
                             scrollX = TRUE,
                             width = "auto",
                             scrollX = T
                             )
              )
## `summarise()` has grouped output by 'id', 'test'. You can override using the
## `.groups` argument.



2 Tests appariés

# DF with id-filiere-pre-post pour les tests stat
test_data <- data %>%
  group_by(id, filiere, test) %>%
  summarise(mean_score = mean(c_across(s1q1:s7q2), na.rm = T)) %>%
  pivot_wider(names_from = "test", values_from = "mean_score") %>%
    filter(!is.na(post),!is.na(pre)) %>% distinct
## `summarise()` has grouped output by 'id', 'filiere'. You can override using the
## `.groups` argument.
# paired cases by filiere
test_data %$% 
    table(filiere) %>% 
    as.data.frame() %>% 
    mutate("%" = round(Freq/sum(Freq)*100, 2)) %>% 
    adorn_totals() %>% 
    pander(caption = "Cas appariés par filière")
Cas appariés par filière
filiere Freq %
IDE 135 38.14
maieutique 24 6.78
medecine generale 88 24.86
MKE 38 10.73
orthophonie 25 7.06
pharmacie 44 12.43
Total 354 100

Pour ces pourcentages les denominateur est “total de tests appariés” et non le “nombre total de tests. Donc, les IDE, representent 38.14% des tests appariés disponibles.

Mais, il y a carrement plus d’IDE que les autres filières! Oui, bien sur. Voyons

3 Tests stat

# PRE vs POST, toutes filieres confondues
t.test(test_data$post,test_data$pre, paired=T)
## 
##  Paired t-test
## 
## data:  test_data$post and test_data$pre
## t = 15.96, df = 353, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  0.5796475 0.7425832
## sample estimates:
## mean of the differences 
##               0.6611153
# PRE vs POST, filiere par filiere 
t.test(test_data$post[test_data$filiere=="IDE"],test_data$pre[test_data$filiere=="IDE"], paired=T)
## 
##  Paired t-test
## 
## data:  test_data$post[test_data$filiere == "IDE"] and test_data$pre[test_data$filiere == "IDE"]
## t = 9.0251, df = 134, p-value = 1.68e-15
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  0.4998955 0.7804887
## sample estimates:
## mean of the differences 
##               0.6401921
---
# General Information --------------------------------------------------------
title:    "Thèse - Rachel Frébourg"
subtitle: "Comparaison avant-après niveau interdisciplinarité chez les pro de santé"
author:   "Francesco MONTI"
date:     "`r Sys.time()`" # Automatic date and time
# Document Format and Appearance ---------------------------------------------
# type ?html_document for more details
output:
    bookdown::html_document2: 
        toc:         yes        # Table of contents (toc): yes no
        toc_float:   yes        # yes no
        toc_depth:   5              # 1 2 3 4 5
        highlight : pygments      # default tango kate monochrome espresso pygments...
        highlight_downlit : FALSE      # TRUE to use the downlit package as syntax highlight engine to highlight 
                                       # inline code and R code chunks (including providing hyperlinks to function 
                                       # documentation). The package needs to be installed to use this feature.
        code_folding:    "hide"     # none show hide
        code_download:   yes        # yes no
        fig_caption: yes        # yes no
        fig_width : 14
        fig_height : 10
        fig_retina : 2
        theme:       default        # cerulean journal flatly readable paper sandstone ...
        df_print:    default        # paged kable tibble default
        number_sections: yes        # Automatic numbering of sections: yes no
        anchor_sections : FALSE
        section_divs : TRUE     # Wrap sections in <div> tags, and attach identifiers to the enclosing <div> 
                                # rather than the header itself.
        dev : "svg"                # Graphics device to use for figure output (defaults to png)
        self_contained : TRUE
        extra_dependencies : NULL    # Extra dependencies as a list of the html_dependency class objects typically 
                                     # generated by htmltools:htmlDependency().
        css : style.css     # CSS and/or Sass files to include. Files with an extension of .sass or .scss are compiled to 
                       # CSS via sass::sass(). Also, if theme is a bslib::bs_theme() object, Sass code may reference 
                       # the relevant Bootstrap Sass variables, functions, mixins, etc.
        includes : NULL        # Named list of additional content to include within the document 
                                # (typically created using the includes function)
        keep_md : FALSE        # Keep the markdown file generated by knitting.
        lib_dir : NULL             #    Directory to copy dependent HTML libraries (e.g. jquery, bootstrap, etc.) 
                                   # into. By default this will be the name of the document with _files appended to it.
        md_extensions : NULL       # Markdown extensions to be added or removed from the default definition of 
                                    # R Markdown. See the rmarkdown_format for additional details.
        pandoc_args : NULL      # Additional command line options to pass to pandoc
        template : "default"       # Pandoc template to use for rendering. Pass "default" to use the rmarkdown 
                                    # package default template; pass NULL to use pandoc's built-in template; 
                                    # pass a path to use a custom template that you've created. 
                                    # Note that if you don't use the "default" template then some features of 
                                    # html_document won't be available (see the Templates section below for more details).
        math_method : "default"     # Math rendering engine to use. This will define the math method to use with Pandoc.
                                    # It can be a string for the engine, one of "mathjax", "mathml", "webtex", "katex",
                                    # "gladtex", or "r-katex" or "default" for mathjax.
                                # It can be a list of
                                # - engine: one of "mathjax", "mathml", "webtex", "katex", or "gladtex". 
                                # - url: A specific url to use with mathjax, katex or webtex. 
                            # Note that for engine = "mathjax", url = "local" will use a local version of 
                            # MathJax (which is copied into the output directory).
                            # For example,
                            # output:
                            #    html_document:
                            #        math_method:
                            #        engine: katex
                            #        url: https://cdn.jsdelivr.net/npm/katex@0.11.1/dist
                            #        See Pandoc's Manual about Math in HTML for the details about Pandoc 
                            #        supported methods.

                        # Using math_method = "r-katex" will opt-in server side rendering using KaTeX thanks to 
                        # katex R package. 
                        # This is useful compared to math_method = "katex" to have no JS dependency, 
                        # only a CSS dependency for styling equation.
        mathjax : "default"        # Include mathjax. The "default" option uses an https URL from a MathJax CDN. 
                                    # The "local" option uses a local version of MathJax (which is copied into 
                                    # the output directory). You can pass an alternate URL or pass NULL 
                                    # to exclude MathJax entirely.
---


```{r chunk options, echo=F}
# Chunk options
knitr::opts_chunk$set(
  echo       = T,    # Should blocks with program code be shown in knitted documents?
  eval       = TRUE,    # Should program code be evaluated?
  fig.height = 6,       # Default height for plots.
  fig.width  = 10,       # Default width for plots.
  fig.align  = "center", # Default alignment for plots in knitted documents.
  warning = F
)

```

```{r libraries and data loading, include = F}

# LIBRARIES ----------------------------------------------------------------------------------
library(conflicted)    # Get a warning/error if several functions with the same name exist.
library(magrittr)      # Operator %>% and additional pipe-friendly functions.
library(tidyverse)     # The main "tidyverse" packages.
library(openxlsx)      # Write data to Excel files.
library(stringr)
library(knitr)
library(kableExtra)
library(pander)
library(DT)
library(janitor)

conflicted::conflicts_prefer(dplyr::filter)

# DATA ------------------------------------------------------------------------------------------
post = read.xlsx("Copie de resultats Q2 copie.xlsx", sheet = 1)
pre = read.xlsx("Copie de resultats Q1 copie.xlsx", sheet = 1)
```

```{r data management, include = F}
# Colnames() to lowercase
colnames(pre) = tolower(colnames(pre))
colnames(post) = tolower(colnames(post))

# MERGING PRE E POST ----------------------------------------------------------
pre = pre %>% 
    select(-contains(c("id","submitdate","lastpage","startlanguage"))) %>% 
    rename("filiere"=b1, "id" = a1) %>% 
    mutate(test = "pre")

post = post %>%
    filter(!is.na(submitdate)) %>% 
    select(-contains(c("id","submitdate","lastpage","startlanguage","x26","x27"))) %>% 
    rename("id" = a1) %>% 
    left_join(pre[,c("id","filiere")], by = "id") %>% 
    relocate(filiere, .after = "id") %>% 
    mutate(test = "post")

# Merging
data = rbind(pre,post) %>% tibble

# DATA MANAGEMENT merged DF ----------------------------------------------------
data = data %>% 
    mutate(across(s1q1:s7q2, as.numeric)) %>% 
    distinct() %>% 
    relocate(test, .after = "id") %>%
    mutate(filiere = case_when(filiere == "étudiant(e) en maïeutique" ~ "maieutique",
                               filiere == "étudiant(e) en orthophonie" ~ "orthophonie",
                               filiere == "étudiant(e) en pharmacie" ~ "pharmacie",
                               filiere == "étudiant(e) IDE" ~ "IDE",
                               filiere == "étudiant(e) MKE" ~ "MKE",
                               filiere == "interne de médecine générale" ~ "medecine generale",
                               TRUE ~ NA_character_
                               )
           )

# Adding mean score column
data = data %>% mutate(score = rowMeans(across(s1q1:s7q2),na.rm=T))
```


# Exploratory analysis
## Selection des questionnaires
```{r filtering out invidalid questionnaires, include = F}
rows_1 = nrow(data)
unique_ids_1 = n_distinct(data$id)

# Removing missing IDs rows (n=4)
data = data %>% filter(!is.na(id))
unique_ids_2 = n_distinct(data$id)
rows_2 = nrow(data)

# Computing missing values per row
data = data %>% filter(!is.na(id)) %>% 
    mutate(na_counts = rowSums(across(s1q1:s7q2, is.na)))

# Empty questionnaires
empty_q = sum(data$na_counts==20)


# Removing totally incomplete questionnaires
data = data %>% filter(na_counts<20)
unique_ids_3 = n_distinct(data$id)
rows_3 = nrow(data)

```

Au tout début on a **`r rows_1`** lignes et **`r unique_ids_1`** IDs.  
  <br>
Après avoir exclu 4 lignes à cause de missing ID, on descend à **`r (rows_1 - 4)`** questionnaires et **`r unique_ids_2`** IDs (l'ID "valeur manquante" n'est plus comptabilisé, c'est pour ça qu'on "perd" un ID).  
  <br>
Sachant que **`r unique_ids_2`**x2=**`r (unique_ids_2*2)`**on a **`r rows_2 - 760`** entrées de trop.
  <br>
On retrouve **`r empty_q`** questionnaires completement vides, qu'on peut exclure ce qui nous donne **`r rows_3`** questionnaires et **`r unique_ids_3`** IDs uniques.  
  <br>
On est tjrs très loin de notre objectif de environ **`r (unique_ids_2*2)`** questionnaires (**`r (unique_ids_3*2)`** maintenant qu'on a **`r unique_ids_3`** IDs).
  <br>

Donc, on a forcement des IDs pour lesquels on a **>2** entrées. Voyons de les mettre en evidence.

```{r IDs with too many entries}
data %>% 
    group_by(id) %>% 
    summarise(n=n()) %>%
    arrange(desc(n)) %>%
    datatable(options = list(pageLength = 10,
                             #dom = 't',
                             scrollX = TRUE,
                             width = "auto",
                             scrollX = T
                             ))

problematic_IDs = data %>% group_by(id) %>% summarise(n=n()) %>% filter(n>2) %>% nrow

```
  
  <br>
Comme tu peux le voir on semble avoir `r problematic_IDs` IDs presents **au moins** 3 fois.
  <br>
Creusons plus loin pour voir si on identifie un groupe d'IDs problematique. Théoriquement, si les gens avaient respecté les régles pour la création de l'identifiant anonyme, l'identifiant devrait suivre le *pattern* suivant: 1 chiffre - 2 lettres - 2 chiffres.  

Voyons pour combien de lignes ce *pattern* est respecté:
```{r looking for IDs not following the rules}
str_detect(data$id, "[:digit:]{1}[:alpha:]{2}[:digit:]{2}") %>% 
    table %>%
    pander
```

Cela nous dit que **même si** on regarde seulement les gens qui ont respecté la procedure pour la création des IDs, on à tjrs des lignes de trop. D'abord, regardons les entrés des gens qui ont tapé un ID au pif.

```{r dataframe IDs aberrants}
data %>% 
    filter(!str_detect(id, "[:digit:]{1}[:alpha:]{2}[:digit:]{2}")) %>%
    arrange(id) %>% 
    datatable(options = list(pageLength = 10,
                             #dom = 't',
                             scrollX = TRUE,
                             width = "auto",
                             scrollX = T
                             ))
```
  
  <br>
Néanmoins, s'ils ont utilisé 2 fois **le même** identifiant *aberrant* on pourra quand même les apparier. Voyons donc les IDs qui apparaissent **>2** fois. Les IDs  *aberrants* qui apparaissent **2** fois on peut les utiliser, les IDs qui apparaissent qu'une seule fois, idem, on peut les garder pour la partie descriptive (carrement ils ne sera pas possible de les utiliser pour la comparaison avant-après).
  <br>
  
```{r IDs aberrants presentes 2+ fois}
data %>% 
    filter(!str_detect(id, "[:digit:]{1}[:alpha:]{2}[:digit:]{2}")) %>%
    group_by(id) %>%
    summarise(n=n()) %>% 
    arrange(desc(n)) %>%
    datatable(options = list(pageLength = 10,
                             #dom = 't',
                             scrollX = TRUE,
                             width = "auto",
                             scrollX = T
                             ))
```
  
On voit que le seul ID problematique parmi les *aberrants* est **"12345"**.<br>
Est-ce que la filière pourrait nous aider? Voyons.

```{r filtering on ID "12345"}
data %>% 
    filter(id=="12345") %>%
    datatable(options = list(pageLength = 10,
                             #dom = 't',
                             scrollX = TRUE,
                             width = "auto",
                             scrollX = T
                             ))
```
  
On semble avoir 1 IDE et 1 MG, qui ont un doublon de "2ème test". 
Si on regarde avec attention la ligne 3 et 4 sont identiques, avec une "filière" différente. <br>
Si la ligne 3 et 4 étaient par exemple "IDE" et la ligne 5 et 6 étaient "medecine generale" on aurait identifié des doublons --> problème résolu. 
Mais dans ce cas on a des doublons **ET** 2 personnes qui ont rentré 2 fois le "2ème test" en changeant aussi de filière. Ou Il est donc impossible de rattacher ces questionnaires à un "test 1".
Ce qui est très très bizarre, est que les lignes 3 et 5 sont IDENTIQUES aux lignes 4 et 6. Ce qu'on peut faire, est prendre la moyenne des lignes 3-5 et 4-6. Le même approche nous sera utile pour gérer les IDs *non aberrants* doublons qui sont les suivants:


```{r IDs non aberrants de trop}
data %>% 
    filter(str_detect(id, "[:digit:]{1}[:alpha:]{2}[:digit:]{2}")) %>%
    group_by(id) %>%
    mutate(n=n()) %>% 
   filter(n>2) %>%
    relocate(n, .after = id) %>% 
    arrange(desc(n)) %>% 
    datatable(options = list(pageLength = 10,
                             #dom = 't',
                             scrollX = TRUE,
                             width = "auto",
                             scrollX = T
                             ))


data = data%>%
     group_by(id, test, filiere) %>%
     summarise(across(s1q1:last_col(), ~mean(., na.rm = TRUE)), .groups = "drop")
```
  

Vu que "ID" ne suffit pour identifier uniquement les lignes, si on prend "ID" + "test" + "filiere" et on fait la moyenne des lignes ambigues on devrait s'en sortir pas mal.
Cela nous laisse avec `r nrow(data)` questionnaires. <br>
Bon, on sait dejà qu'on a des IDs qui apparaissent trop souvent mais si on prend ID-filiere, est-ce que maintenant on a max 2 lignes par couple ID-filiere?
  

```{r uniques ID-FILIERE}
data %>% 
    group_by(id,filiere) %>%
    summarise(n=n()) %>% 
    arrange(desc(n)) %>%
    datatable(options = list(pageLength = 10,
                             #dom = 't',
                             scrollX = TRUE,
                             width = "auto",
                             scrollX = T
                             ))

```
<br>

Oui! Nous avons maintenant 413 identité uniques données par ID+FILIERE. Vu qu'on a besoin de "filière" pour identifier les gens, on va esclure les lignes où "filière" n'est pas renseigné.

```{r}
filiere_na = data %>% filter(is.na(filiere)) %>% nrow()

# REMOVING MISSING "filiere" rows
data = data %>% filter(!is.na(filiere))

# How many questionnaires left?
questionnaires = nrow(data)
# How many unique identifties?
ids = data %>% distinct(id,filiere) %>% nrow

```

On exclu donc `r filiere_na` lignes car valeur manquante. On est maintenant à **`r questionnaires`** questionnaires pour **`r ids`** identités. Voyons combien de gens on peut apparier.

<br>
```{r how many paired questionnaires}
data %>% 
    group_by(id,filiere) %>%
    summarise(n=n(), .groups="drop") %>% 
    arrange(desc(n)) %$%
    table(n) %>%
    pander(caption = "Nb questionnaires appariés et non")
```

<br>

```{r echo=FALSE, fig.cap=caption, out.width=800, out.height=800}
# Caption/Description.
caption <- "Flowchart inclusion questionnaires"

# Path or URL to the figure.
knitr::include_graphics("flowchart.png")
```
<br>
#########
<div class="mxgraph" style="max-width:100%;border:1px solid transparent;" data-mxgraph="{&quot;highlight&quot;:&quot;#0000ff&quot;,&quot;nav&quot;:true,&quot;resize&quot;:true,&quot;toolbar&quot;:&quot;zoom layers tags lightbox&quot;,&quot;edit&quot;:&quot;_blank&quot;,&quot;xml&quot;:&quot;&lt;mxfile&gt;&lt;diagram id=\&quot;px3hoDM4YlP0pP7gUFGq\&quot; name=\&quot;Page-1\&quot;&gt;&lt;mxGraphModel dx=\&quot;680\&quot; dy=\&quot;568\&quot; grid=\&quot;1\&quot; gridSize=\&quot;10\&quot; guides=\&quot;1\&quot; tooltips=\&quot;1\&quot; connect=\&quot;1\&quot; arrows=\&quot;1\&quot; fold=\&quot;1\&quot; page=\&quot;1\&quot; pageScale=\&quot;1\&quot; pageWidth=\&quot;850\&quot; pageHeight=\&quot;1100\&quot; math=\&quot;0\&quot; shadow=\&quot;0\&quot;&gt;&lt;root&gt;&lt;mxCell id=\&quot;0\&quot;/&gt;&lt;mxCell id=\&quot;1\&quot; parent=\&quot;0\&quot;/&gt;&lt;mxCell id=\&quot;4\&quot; value=\&quot;removing missing IDs (n=4)\&quot; style=\&quot;edgeStyle=none;html=1;\&quot; parent=\&quot;1\&quot; source=\&quot;2\&quot; target=\&quot;3\&quot; edge=\&quot;1\&quot;&gt;&lt;mxGeometry relative=\&quot;1\&quot; as=\&quot;geometry\&quot;/&gt;&lt;/mxCell&gt;&lt;mxCell id=\&quot;2\&quot; value=\&quot;870 questionnaires rentrés\&quot; style=\&quot;rounded=1;whiteSpace=wrap;html=1;\&quot; parent=\&quot;1\&quot; vertex=\&quot;1\&quot;&gt;&lt;mxGeometry x=\&quot;365\&quot; y=\&quot;40\&quot; width=\&quot;120\&quot; height=\&quot;60\&quot; as=\&quot;geometry\&quot;/&gt;&lt;/mxCell&gt;&lt;mxCell id=\&quot;6\&quot; value=\&quot;exclusion questionnaires vides (n=16)\&quot; style=\&quot;edgeStyle=none;html=1;\&quot; parent=\&quot;1\&quot; source=\&quot;3\&quot; target=\&quot;5\&quot; edge=\&quot;1\&quot;&gt;&lt;mxGeometry relative=\&quot;1\&quot; as=\&quot;geometry\&quot;/&gt;&lt;/mxCell&gt;&lt;mxCell id=\&quot;3\&quot; value=\&quot;866 questionnaires&amp;lt;br&amp;gt;380 IDs\&quot; style=\&quot;whiteSpace=wrap;html=1;rounded=1;\&quot; parent=\&quot;1\&quot; vertex=\&quot;1\&quot;&gt;&lt;mxGeometry x=\&quot;365\&quot; y=\&quot;180\&quot; width=\&quot;120\&quot; height=\&quot;60\&quot; as=\&quot;geometry\&quot;/&gt;&lt;/mxCell&gt;&lt;mxCell id=\&quot;8\&quot; value=\&quot;Les IDs ne sont pas suffisants donc je regroupe pour ID + FILIERE.&amp;lt;br&amp;gt;Si pour une triplette ID + FILIERE j&#39;ai tjrs plus que 2 lignes, je prends la moyenne\&quot; style=\&quot;edgeStyle=none;html=1;\&quot; parent=\&quot;1\&quot; source=\&quot;5\&quot; target=\&quot;7\&quot; edge=\&quot;1\&quot;&gt;&lt;mxGeometry relative=\&quot;1\&quot; as=\&quot;geometry\&quot;/&gt;&lt;/mxCell&gt;&lt;mxCell id=\&quot;5\&quot; value=\&quot;850 questionnaires&amp;lt;br&amp;gt;379 IDs\&quot; style=\&quot;whiteSpace=wrap;html=1;rounded=1;\&quot; parent=\&quot;1\&quot; vertex=\&quot;1\&quot;&gt;&lt;mxGeometry x=\&quot;365\&quot; y=\&quot;320\&quot; width=\&quot;120\&quot; height=\&quot;60\&quot; as=\&quot;geometry\&quot;/&gt;&lt;/mxCell&gt;&lt;mxCell id=\&quot;10\&quot; value=\&quot;Si on a besoin de ID+FILIERE pour identifier les lignes, on va exclure les lignes où la valeur &amp;quot;filière&amp;quot; n&#39;est pas reinseignée (n=9)\&quot; style=\&quot;edgeStyle=none;html=1;\&quot; parent=\&quot;1\&quot; source=\&quot;7\&quot; target=\&quot;9\&quot; edge=\&quot;1\&quot;&gt;&lt;mxGeometry relative=\&quot;1\&quot; as=\&quot;geometry\&quot;/&gt;&lt;/mxCell&gt;&lt;mxCell id=\&quot;7\&quot; value=\&quot;776 questionnaires\&quot; style=\&quot;whiteSpace=wrap;html=1;rounded=1;\&quot; parent=\&quot;1\&quot; vertex=\&quot;1\&quot;&gt;&lt;mxGeometry x=\&quot;365\&quot; y=\&quot;460\&quot; width=\&quot;120\&quot; height=\&quot;60\&quot; as=\&quot;geometry\&quot;/&gt;&lt;/mxCell&gt;&lt;mxCell id=\&quot;9\&quot; value=\&quot;767 questionnaires&amp;lt;br&amp;gt;413 identités uniques données par ID+FILIERE\&quot; style=\&quot;whiteSpace=wrap;html=1;rounded=1;\&quot; parent=\&quot;1\&quot; vertex=\&quot;1\&quot;&gt;&lt;mxGeometry x=\&quot;230\&quot; y=\&quot;600\&quot; width=\&quot;390\&quot; height=\&quot;60\&quot; as=\&quot;geometry\&quot;/&gt;&lt;/mxCell&gt;&lt;/root&gt;&lt;/mxGraphModel&gt;&lt;/diagram&gt;&lt;/mxfile&gt;&quot;}"></div>
<script type="text/javascript" src="https://viewer.diagrams.net/js/viewer-static.min.js"></script>

## Nb et repartition sujets participants
```{r }

data %>% distinct(id,filiere) %$% 
    table(filiere) %>% 
    as.data.frame() %>% 
    mutate("%" = round(Freq/sum(Freq)*100, 2)) %>% 
    adorn_totals() %>% 
    pander(caption = "**Repartition sujets par filière**")
```
<br>

## Missing values

Voyons sur tout l'ensemble de tests, combien de données manquantes on a. Ce sont des "vraies" données manquantes **OU** des "NSP" qui n'était pas pertinents pour la question et vraisemblablement pris pour des "Ne sait pas".

```{r missing values}


table(data$na_counts) %>% 
    as.data.frame() %>% 
    mutate("%" = round(Freq/sum(Freq)*100, 2)) %>% 
    rename("Nb missing values" = Var1) %>% 
    pander(caption = "**Nb de valeurs manquantes par questionnaire**")

```

On voit que les tests sont bien complets globalement sauf 16 questionnaires qui sont **complétement** vides. Ils sont des doublons dus à des enregistrements vides.

<br>

<br>

### Missing values par filière

On peut voir que la repartition des valeurs manquantes par filière est en ligne avec la repartition des sujets par filière. Donc il n'y a pas une filière qui a laissé le questionnaire "plus vide" que les autres.

```{r}
data %>%
  group_by(filiere) %>%
  summarise(Freq = sum(na_counts)) %>%
  mutate("%" = round(Freq / sum(Freq) * 100, 2)) %>%
    adorn_totals() %>% 
  pander(caption = "**Valeurs manquantes par filière**", align = "center")


```

**!!!!!!** Quelque chose ne va pas, on a 379 sujets et 800+ questionnaires (on devrait en avoir **au max** 379\*2). Dans le tableau suivant on voit qu'on a 199 sujets avec **au moins** 3 entrées (et j'ai déjà exclu les 16 dont je parlais avant).

```{r message = F}
x <- data %>%
  group_by(id, filiere) %>%
  summarise(n = n()) %>%
  arrange(desc(n)) %>%
  filter(n > 2) %>%
  pull(id) 

data %>%
    filter(id %in% x) %>%
    arrange(id, filiere, test) %>%
    datatable(options = list(pageLength = 10,
                             #dom = 't',
                             scrollX = TRUE,
                             width = "auto",
                             scrollX = T
                             )
              ) 
```

Les entrées supplementaires ne sont pas des "doublons", les valeurs ne sont pas les mêmes. Je vais donc prendre la moyenne de ces valeurs. Ci dessous le résultat, on est à 766 lignes alor que notre max theorique est 758. Il y a forcement des gens qui se sont enregistrés avec plus qu'un ID (j'ai renommé la variable "A1").   
Ca ne m'inquiète pas pour les tests appariés, je ne pense pas que des gens ont 2*2 tests appariés mais je controllerai.

```{r}
data %>% 
    group_by(id,test,filiere) %>% 
    summarise(across(s1q1:s7q2,mean,na.rm=T)) %>% 
    mutate(na_counts = rowSums(across(s1q1:s7q2, is.na))) %>% 
    datatable(options = list(pageLength = 10,
                             #dom = 't',
                             scrollX = TRUE,
                             width = "auto",
                             scrollX = T
                             )
              )
```

<br>

<br>

# Tests appariés

```{r Cas appariés par filière}
# DF with id-filiere-pre-post pour les tests stat
test_data <- data %>%
  group_by(id, filiere, test) %>%
  summarise(mean_score = mean(c_across(s1q1:s7q2), na.rm = T)) %>%
  pivot_wider(names_from = "test", values_from = "mean_score") %>%
    filter(!is.na(post),!is.na(pre)) %>% distinct

# paired cases by filiere
test_data %$% 
    table(filiere) %>% 
    as.data.frame() %>% 
    mutate("%" = round(Freq/sum(Freq)*100, 2)) %>% 
    adorn_totals() %>% 
    pander(caption = "Cas appariés par filière")
```

Pour ces pourcentages les denominateur est "total de tests appariés" et non le "nombre total de tests. Donc, les IDE, representent 38.14% des tests appariés disponibles.

Mais, il y a carrement plus d'IDE que les autres filières! Oui, bien sur. Voyons

# Tests stat

```{r analysis}
# PRE vs POST, toutes filieres confondues
t.test(test_data$post,test_data$pre, paired=T)

# PRE vs POST, filiere par filiere 
t.test(test_data$post[test_data$filiere=="IDE"],test_data$pre[test_data$filiere=="IDE"], paired=T)

```
